home *** CD-ROM | disk | FTP | other *** search
/ Shareware Super Platinum 8 / Shareware Super Platinum 8.iso / mac / DATABASE / SIMST1.ZIP;1 / READ.ME < prev    next >
Encoding:
Text File  |  1992-08-11  |  22.4 KB  |  538 lines

  1.                                SIMSTAT 1.00c
  2.  
  3.                               August 9, 1992
  4.  
  5.  
  6.                   Designed and written by Normand Peladeau
  7.  
  8.  
  9.                      Copyright (C) 1991,92, N. Peladeau
  10.  
  11.  
  12.  
  13. FILES YOU SHOULD HAVE
  14. ---------------------
  15.  
  16.           Before you start working with SIMSTAT, take a few moments to
  17.      check the content of the archived file.  The program should include 12
  18.      files:
  19.  
  20.        4 text files
  21.                  READ.ME  -- This file.
  22.                ORDER.FRM  -- Use this file to order copies of Simstat.
  23.              LISENCE.DOC  -- Lisence and warranty information.
  24.               VENDOR.DOC  -- Information for shareware vendors.
  25.  
  26.        3 files for the main program
  27.              SIMSTAT.EXE  -- The simstat statistical program.
  28.              SIMSTAT.DEF  -- The simstat default configuration file.
  29.              SIMSTAT.HLP  -- The simstat help file.
  30.  
  31.        4 sample data files
  32.              SAMPLE.DAT   -- A sample ASCII data file.
  33.              SAMPLE.SYS   -- A SPSS/PC+ system file.
  34.              SAMPLE.DBF   -- A dBASE III data file
  35.              SAMPLE.WKS   -- A Lotus 1-2-3 data file.
  36.  
  37.        1 utility file
  38.              EXPAND.EXE   -- A program to uncompressed listing files
  39.  
  40.  
  41. INSTALLING AND RUNNING THE PROGRAM
  42. ----------------------------------
  43.  
  44.           To install the program, simply copy all the files to the
  45.      destination disk or directory.
  46.  
  47.           There are three command line options that can be used with
  48.      SIMSTAT:
  49.  
  50.         /M or -M    Force monochrome color set on a computer with a color
  51.                     card.
  52.  
  53.         /E or -E    Display 43 lines on an EGA or 50 lines on a VGA
  54.                     monitor.
  55.  
  56.         /C or -C    Save the listing file in a compressed format. This
  57.                     option is  useful for saving disk space when running on
  58.                     a laptop.  The listing file will take up to 75% less
  59.                     disk space.  You must use the EXPAND.EXE utility to
  60.                     uncompress the listing file.
  61.  
  62. PROGRAM MAINS FEATURES
  63. ----------------------
  64.  
  65.           SIMSTAT is a menu driven statistical program that provide many
  66.      basic descriptive and comparative statistics including:
  67.         o Summary statistics (mean, variance, standard deviation, etc.)
  68.         o Crosstabulation
  69.             - normal crosstabulation and inter-raters agreement table
  70.             - nominal statistics including:
  71.                  - chi-square
  72.                  - Pearson's Phi
  73.                  - Goodman-Kruskall's Gamma
  74.                  - Contingency coefficient
  75.             - ordinal statistics
  76.                  - Kendall's tau-b
  77.                  - Kendall's tau-c
  78.                  - Pearson's R
  79.                  - Symetric and asymetric Somers' D, Dxy and Dyx
  80.              - inter-raters agreement statistics including:
  81.                  - percentage of agreement
  82.                  - Cohen's Kappa
  83.                  - Scott's Pi
  84.                  - Krippendorf's r
  85.                  - Krippendorf's R-bar
  86.                  - free marginal correction for nominal and ordinal measure
  87.         o Frequencies analysis including:
  88.              - frequencies table
  89.              - barchart
  90.              - histogram
  91.              - descriptive statistics
  92.              - percentile table
  93.         o Breakdown analysis
  94.         o Oneway analysis of variance
  95.         o Paired and independent sample t-tests
  96.         o Pearson correlation matrix, covariance and cross product
  97.           deviation
  98.         o Regression analysis including:
  99.              - Linear and 7 nonlinear regressions including:
  100.                  - quadratic
  101.                  - cubic
  102.                  - 4th degree polynomial
  103.                  - 5th degree polynomial
  104.                  - logarithmic
  105.                  - exponential
  106.                  - inverse
  107.              - X and Y scatterplot
  108.              - regression equation
  109.              - analysis of variance
  110.              - residuals plot
  111.          o Nonparametric analysis including:
  112.              - Mann-Whitney U test
  113.              - Wilcoxon T-test
  114.              - Sign test
  115.              - Kruskall-Wallis ANOVA
  116.              - Kolmogorov-Smirnov test for 2 samples
  117.              - Moses test of extreme reactions
  118.              - Median test (2 or more samples)
  119.          o nonparametric association matrix including
  120.              - Spearman's R
  121.              - Sommer's D, Dxy and Dyx
  122.              - Goodman Kruskall's Gamma
  123.              - Kendall's Tau-a, Tau-b
  124.              - Kendall Stuart's Tau-c
  125.  
  126.  
  127. BOOTSTRAP ANALYSIS
  128. ------------------
  129.  
  130.           SIMSTAT also gives the user access to an innovative and extremely
  131.      powerful statistical technique called bootstrap simulation.  This
  132.      technique developed by Efron (Efron, 1981; Diaconis & Efron, 1983) can
  133.      be used to assess various properties of statistical estimators such as
  134.      their accuracy, their sampling variability, etc..  Typical
  135.      applications include the computation of  nonparametric estimates of
  136.      sampling distributions, the assessment of the stability of statistical
  137.      estimators and the construction of nonparametric confidence intervals. 
  138.      SIMSTAT also allows the computation of nonparametric power estimates
  139.      and Type I error rates for various estimators.
  140.  
  141.           The following section provides a short non-technical introduction
  142.      to the bootstrap technique followed by a description of SIMSTAT
  143.      particular implementation of bootsrapping methodology.  Potential
  144.      applications for researchers, statistical consultants and for students
  145.      and teachers in statistics are also presented.  For further
  146.      information about bootstrap methods and its application you can read
  147.      the articles of Efron and his colleagues (Diaconis & Efron, 1983;
  148.      Efron, 1981; Efron & Gong, 1983).  Wasserman and Bockenhold (1989)
  149.      also provide an excellent introduction to bootstrap methodology, while
  150.      Stine (1989) offers an comprehensive presentation of it's potential
  151.      application.
  152.  
  153. WHAT IS BOOTSTRAP SIMULATION? 
  154.  
  155.           Bootstrap simulation is a resampling technique whereby initial
  156.      sample subjects are treated as if they constitute the population under
  157.      study.  By replicating those data an infinite number of time, we then
  158.      draw at random from that population a large number of samples, each
  159.      the same size as the original sample.  By computing, for every
  160.      bootstrap sample, a statistical estimator of interest (such as a mean
  161.      or a correlation between two variables),  this resampling procedure
  162.      recreates an empirical sampling distribution of this statistics.
  163.  
  164.           The main advantage of such a procedure is that the sampling
  165.      distribution is not mathematically estimated but empirically
  166.      reconstructed based on all the original characteristics of the data.
  167.      So, it automatically takes into account distribution properties that
  168.      are generally considered as contaminating factors, such as skewness,
  169.      ceiling effects, outliers, etc.  This feature makes bootstrap
  170.      estimations adequate even when data are not normally distributed.  In
  171.      fact, bootstrapping can even be used to describe the sampling
  172.      distribution of estimators for which sampling properties are unknown
  173.      or unavailable.
  174.  
  175. SIMSTAT IMPLEMENTATION OF BOOTSTAPPING
  176.  
  177.           SIMSTAT provides bootstrap analysis for seven descriptive
  178.      estimators of a single variable and twenty estimators involving two
  179.      variables.  Those estimators are:
  180.  
  181.         One variable estimators:
  182.             - Mean
  183.             - Median
  184.             - Variance
  185.             - Standard deviation
  186.             - Standard error
  187.             - Skewness
  188.             - Kurtosis
  189.  
  190.         Two variables estimators:
  191.             - Kendall's Tau-A and B
  192.             - Kendall-Stuart's Tau-C
  193.             - Symmetric and asymmetric Somers' D
  194.             - Goodman-Kruskal's Gamma
  195.             - Student's t and F
  196.             - Pearson's r
  197.             - Spearman's R
  198.             - Regression slope and intercept
  199.             - Mann-Whitney's U
  200.             - Wilcoxon's W
  201.             - Difference between means
  202.             - Difference between variances
  203.             - Sign test
  204.             - Kruskal-Wallis ANOVA
  205.             - Median test
  206.  
  207.           The number of bootstrap samples for a single analysis can range
  208.      from 100 to 20,000.  The output of a simulation analysis can consist
  209.      of various results, including descriptive statistics, frequency
  210.      tables, histograms and percentile tables.  The program also computes
  211.      bootstrap confidence intervals.   
  212.  
  213.           For estimators which can be tested for significance, SIMSTAT also
  214.      displays nonparametric power estimates for up to four alpha levels. 
  215.      Power estimation with the bootstrap technique is straightforward: 
  216.      while performing bootstrap on a given data set, the proportion of
  217.      redrawn samples that lead to a statistically significant estimator (at
  218.      some given alpha level) is computed and used as a power estimate.  In
  219.      addition to simulation results, the program displays the value of the
  220.      seed used to initialize the random number generator.  This value may
  221.      then be used to regenerate the same data at a later time or to compare
  222.      various estimators using the same bootstrap samples.
  223.  
  224. EXTENSIONS TO BOOTSTRAP
  225.  
  226.           To achieve an even greater range of potential application SIMSTAT
  227.      implements two extensions to standard bootstrap simulation. 
  228.  
  229.      1) Variable sample size
  230.  
  231.           One typical aspect of bootstrap simulation is that it generally
  232.      involves redrawn samples of the same size as the original one. However
  233.      (de son cot ), SIMSTAT offers the possibility to modify the dimension
  234.      of the bootstrap samples, thus allowing  to compare estimator
  235.      distributions obtained from different sample sizes.  The user can set
  236.      bootstrap simulations involving sample sizes that range from 10 to
  237.      20,000 observations.
  238.  
  239.      2) Randow sampling
  240.  
  241.           Another aspect of bootstrapping is that it assumes that the
  242.      original sample is representative of the population. SIMSTAT offers a
  243.      modified bootstrap sampling process that makes the null assumption
  244.      that there is no difference or relation in the population.  While in
  245.      bootstrap sampling the drawing is achieved on subjects, the RANDOM
  246.      procedure extracts the data for each variable independently.
  247.      Consequently, while a standard bootstrap simulation on a correlation
  248.      between two variables would yield coefficients that fluctuate around
  249.      the correlation that exists in the original sample, the RANDOM
  250.      procedure would produce correlations that vary around a null
  251.      correlation.  In this procedure, the proportion of redrawn samples
  252.      that lead to a statistically significant estimator at a given alpha
  253.      level are use to assess the type I error rate.
  254.  
  255. BOOTSTRAP APPLICATIONS
  256.  
  257.           We have already seen that standard bootstrap resampling can be
  258.      use to obtain various measure of sampling variability such as
  259.      nonparametric confidence intervals.  The capability to alter the
  260.      bootstrap sample size and to replicate the condition of the null
  261.      hypothesis also establish numerous new applications.  The following
  262.      topic gives some examples of such applications.
  263.  
  264.      1) Research planning - Power estimation   
  265.  
  266.           The possibility  to compare various estimator distributions
  267.      obtained for different sample sizes can prove useful in planning
  268.      research by allowing the researcher to determine the sample size
  269.      needed to achieve a desired precision level.  It can also be used for
  270.      power estimation allowing comparison of the power attained using
  271.      various estimators and/or sample sizes.  Researchers thus have an
  272.      empirical basis for choosing between two different statistical
  273.      strategies.  In addition, unlike standard approaches to power
  274.      estimation, which rely on numerous assumptions, including normal data
  275.      distributions, bootstrap power estimates makes no distribution
  276.      assumptions.
  277.  
  278.      2) Teaching Tool
  279.  
  280.           As a teaching tool, bootstrap simulation would be effective in
  281.      illustrating to new stats students concepts such as sampling theory or
  282.      central limit theorem. It would provide a simulation of the sampling
  283.      process of an experiment, allowing the students to visualize the
  284.      sampling variability of given estimators.  By increasing or decreasing
  285.      sample size, the student can observe how these changes affect the
  286.      variability of estimators or the statistical power of an experiment. 
  287.      Additionally, bootstrap would be effective in demonstrating how
  288.      outliers can affect estimation and how data transformation can improve
  289.      population estimates.
  290.  
  291.      3) Monte Carlo investigations
  292.  
  293.           Bootstrap might also be handy for the researcher interested in
  294.      studying the effect of violation of the normality assumption on some
  295.      estimators by allowing the evaluation of the Type I and Type II
  296.      (statistical power) error rate of a test.  While Monte Carlo
  297.      simulations usually analyze data generated by assumed mathematical
  298.      functions, bootstrap simulation provides a direct assessment of sample
  299.      distributions from data provided by the researcher.  By performing
  300.      simulation on data distributions more representative of real world
  301.      data, bootstrap may therefore be a more appropriate evaluation of
  302.      statistical robustness.
  303.  
  304.  
  305. BOOTSTRAP REFERENCES
  306.  
  307.      DIACONIS, P., & EFRON, S. (1983, May).  Computer intensive methods in
  308.           statistics. SCIENTIFIC AMERICAN, 116-130.
  309.  
  310.      EFRON, B. (1981).  Nonparametric estimates of standard error:  The
  311.           jackknife, the bootstrap, and other resampling methods. 
  312.           BIOMETRIKA, 68, 589-599.
  313.  
  314.      EFRON, B., & GONG, G. (1983).  A leisurely look at the bootstrap, the
  315.           jackknife and cross-validation.  AMERICAN STATISTICIAN, 37,
  316.           36-48.
  317.  
  318.      STINE, R. (1989).  An introduction to bootstrap methods: Examples and
  319.           ideas. SOCIOLOGICAL METHODS AND RESEARCH, 8(2&3), 243-290.
  320.  
  321.      WASSERMAN, 
  322.  
  323.  
  324. INPUT AND OUTPUT
  325. ----------------
  326.  
  327.           The data may be entered directly from the keyboard or read
  328.      directly from a dBase file (version III or IV), a LOTUS 1-2-3 file,
  329.      a SPSS/PC+ file or from a ASCII data file.  The keyboard entry may be
  330.      saved for later analysis.
  331.           The output can be read on the screen, save on disk in a listing
  332.      file, and/or send directly to the printer.
  333.  
  334.  
  335. CAPABILITY
  336. ----------
  337.  
  338.           The program can handle up to 500 variables and 20,000 cases.  The
  339.      simulation can contain between 100 and 20,000 sub-sampling.  These
  340.      limitations are the absolute maximum and can be somewhat lower
  341.      depending
  342.      on the amount of memory available.
  343.  
  344.  
  345. SYSTEM REQUIREMENTS
  346. -------------------
  347.  
  348.           SIMSTAT will run on any IBM PC/XT, AT, PS/2 and compatible under
  349.      MS-DOS/PC-DOS version 2.0 or higher.  A minimum of 356K of free RAM is
  350.      necessary.
  351.  
  352.           The program does not need a numeric coprocessor but will use it
  353.      if available.  A coprocessor is highly recommended for extensive
  354.      bootstrap simulation or computation on large samples.
  355.  
  356.           SIMSTAT take less than 120K of disk space (including the help
  357.      file). It can easily be run on a system with a single 360K disk drive
  358.      or on a LAPTOP computer.
  359.  
  360.  
  361.      CREDIT
  362.      ------
  363.  
  364.        IBM-PC/XT, AT and PS/2, PC-DOS are trademarks of International
  365.        Business Machines
  366.  
  367.        MS-DOS is a registered trademark of Microsoft Corporation.
  368.  
  369.        SPSS/PC+ is a registered trademark of SPSS Inc.
  370.  
  371.        DBASE III and IV are trademarks of Ashton-Tate.
  372.  
  373.        LOTUS is a trademark of Lotus Corp.
  374.  
  375.  
  376. RELEASE HISTORY
  377. ---------------
  378.  
  379.       1.00c  09-08-92
  380.  
  381.               - Fixed "Invalid printer port" error on 486 computers.
  382.                 (I/O OPTIONS).
  383.               - Fixed problem with analysis on more that 16,384 valid cases.
  384.               - Fixed floating point error when performing a logarithmic
  385.                 regression with a value of zero (REGRESSION)
  386.  
  387.       1.00a  06-19-92
  388.  
  389.           NEW FEATURES AND IMPROVEMENTS
  390.           -----------------------------
  391.               - Added bootstrap simulation analysis for 7 descriptives
  392.                 statistics and 20 bivariate statistics.
  393.               - More powerful case selection.  A single string of up to 250
  394.                 characters can now be used to select cases.  It may consist
  395.                 of a simple expression or include many expressions related
  396.                 by logical operators (AND, OR, XOR).  Multiple parentheses
  397.                 level can be used to control the order in which expressions
  398.                 are evaluated.
  399.               - Added 6 new measures of inter-rater agreement (CROSSTAB)
  400.                     o Scott's pi (nominal)
  401.                     o Adjusted Kappa (nominal)
  402.                     o Krippendorf's r (ordinal)
  403.                     o Krippendorf's R bar (ordinal)
  404.                     o free marginals adjustement (nominal and ordinal).
  405.               - Added ability displays a listing of the values of the
  406.                 selected dependent and independent variables.
  407.               - Improved memory management that gives up to 64k more ram
  408.                 for statistical analysis.
  409.               - Improved monochrome color scheme. 
  410.               - Added user defined page header.
  411.               - Improved algorithm for automatic histogram scaling when a
  412.                 normal curve is superimposed (FREQUENCIES).
  413.               - More consistant use of the keyboard keys for the CHOOSE X-Y
  414.                 command (pressing the escape key will cancel the operation
  415.                 and restore previous variable definitions while the F10 key
  416.                 is use to accept the data definition) 
  417.  
  418.           FIXED PROBLEMS
  419.           --------------
  420.               - fixed problem with the computation of Spearman's R (NPAR 
  421.                 MATRIX).
  422.               - fixed problem with the output of variance and standard
  423.                 error in analysis of variance (ONEWAY).
  424.               - fixed problem with histogram output with a normal curve
  425.                 (FREQUENCIES).
  426.               - fixed floating point overflow error (runtime error 205) in
  427.                 the computation of Kolmogorov-Smirnov and chi-square
  428.                 probability (KOLMOGOROV-SMIRNOV, CROSSTAB and KRUSKALL-
  429.                 WALLIS).
  430.               - fixed problem with variable label printing beyond the
  431.                 listing width (DESCRIPTIVE).
  432.               - Fixed problem with residual plot in regression analysis
  433.                 (REGRESSION).
  434.               - Fixed problem with SPSS/PC+ files of more than 500
  435.                 variables.
  436.               - Fixed problem with monochrome color scheme (-m switch).
  437.               - Fixed problem with memory management in regression
  438.                 procedure (REGRESSION).
  439.  
  440.       0.93 (beta)   12-15-91
  441.  
  442.           NEW FEATURES AND IMPROVEMENTS
  443.           -----------------------------
  444.               - Added nonlinear regressions (quadratic, cubic, 4th and 5th
  445.                 degree polynomial, logarithmic, exponential and inverse)
  446.                 (REGRESSION).
  447.               - The F7 key can be used to toggle the printer on and off.
  448.               - The F8 key can be used to toggle the disk log on and off.
  449.               - Improved precision for confidence intervals with small
  450.                 degree of freedom (less than 8) (ONEWAY and REGRESION).
  451.               - Added capability to browse through the last analysis even
  452.                 if the listing is not saved to disk.
  453.               - The file listing window displays information on files and
  454.                 directory (OPEN FILE).
  455.  
  456.           FIXED PROBLEMS
  457.           --------------
  458.               - Fixed problem with the scatterplot scaling (REGRESSION).
  459.               - Fixed problem with confidence intervals other than 95%
  460.                 (ONEWAY and REGRESSION).
  461.               - Fixed problem with barchart on string variables
  462.                 (FREQUENCIES).
  463.  
  464.       0.92 (beta)  09-21-91
  465.  
  466.           NEW FEATURES AND IMPROVEMENTS
  467.           -----------------------------
  468.               - Added option for user defined confidence intervals (ONEWAY
  469.                 and REGRESSION).
  470.               - The "." caracter in ASCII files is now treated as a missing
  471.                 value.
  472.               - Added automatic decimal adjustment for very small numbers.
  473.               - Improved algorithm for choosing scatterplot scaling
  474.                 (FREQUENCIES)
  475.  
  476.            FIXED PROBLEMS
  477.            --------------
  478.               - Fixed problem with large number overlapping.
  479.               - Fixed problem with the computation of the mode
  480.                 (FREQUENCIES).
  481.               - More typographical errors corrected.
  482.  
  483.       0.91 (beta)  06-25-91
  484.  
  485.             NEW FEATURES AND IMPROVEMENTS
  486.             -----------------------------
  487.               - Added option to eliminate the beep (I/O OPTION).
  488.               - REGRESSION procedure now includes an anova, standard error
  489.                 and confidence interval of the slope and the intercept.
  490.  
  491.              FIXED PROBLEMS
  492.              --------------
  493.                - Fixed problem with printer error message.
  494.                - Fixed problem with reading Lotus file (OPEN FILE).
  495.                - Help file corrected.
  496.  
  497.       0.90 (beta)  06-14-91  - First public release.
  498.  
  499.  
  500. DISTRIBUTION
  501. ------------
  502.  
  503.          Since SIMSTAT 1.00 is a shareware product, you are encouraged to
  504.      experiment with it and share it with your friends as long as the
  505.      following provisions are met:
  506.          
  507.           1) It is distributed ONLY in its original, unmodified form.
  508.           2) No fee is charged for copying or distribution without
  509.              permission by the author.
  510.          
  511.          You can contact the author by writing to the following addresses:
  512.  
  513.          By mail:
  514.                     Normand Peladeau
  515.                     Provalis Research
  516.                     5000, Adam street
  517.                     Montreal, QC
  518.                     H1V 1W5
  519.  
  520.          By electronic mail via CompuServe:
  521.                     Normand Peladeau
  522.                     User# [71760,2103]
  523.  
  524.  
  525.  
  526.  
  527.  
  528.  
  529.  
  530.  
  531.  
  532.  
  533.  
  534.  
  535.  
  536.  
  537.  
  538.